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摘 要 : 如 何 借助 计算 机 算法 进行 音乐 的 自动 或 半自动 化 生成 工作 一 直 是 人 工 智能 领域 的 一 个 研究 热点 。 近 年 来 ， 
随 着 深度 学 习 技 术 的 深入 发 展 ， 使 用 基于 神经 网 络 并 契合 乐理 先 验 知 识 的 方法 来 生成 高 质量 、 多 样 性 智能 音乐 的 任 
务 也 引起 了 研究 者 的 重视 。 其 中 ， 引 入 生成 对 抗 机 制 以 提升 生成 效果 的 工作 取得 了 一 定 成 果 ， 同 时 也 具备 极 大 的 提 
升 空 间 。 为 了 更 好 地 推进 后 续 研 究 工作 ， 对 相关 领域 的 现 有 成 果 进 行 全 面 而 系统 的 梳理 、 分 析 、 和 总 结 具 有 比较 重要 
的 意义 。 首 先 对 机 器 作曲 的 发 展 过 程 进 行 了 回顾 ， 对 音乐 领域 常用 的 GANS 相关 重要 模型 进行 了 简要 归纳 介绍 ， 对 
引入 了 生成 对 抗 训练 机 制 的 音乐 生成 方法 进行 了 重点 分 析 ， 最 后 对 该 领域 的 现状 进行 了 总 结 并 进一步 展望 了 未 来 的 
发 展 方向 。 
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Survey of intelligent music creation based on GANs 


Ma Dan, Wu Yue 
(School of computer science & engineering, University of Electronic Science & Technology of China, Chengdu Sichuan 
610000, China) 


Abstract: Recently, researchers pay more and more attentions for automatic or semi-automatic music generation based on 
computer algorithm. With the further development of deep learning, researchers start to focus on producing high-quality and 
multifarious-style music with neural networks and priori knowledge of music theory. Furthermore, several works introduced 
Generative Adversarial Networks (GANS for short) to try to improve the quality of the results. To summarize the important 
results in this area is meaningful and with guiding significance for the following works. The paper firstly reviewed the history 
of intelligent music, then listed related GANs model that are commonly applied in music creation, after that the paper analyzed 
some important works in this area. Finally, some observations were presented, and future work direction were prospected. 
Key words: generative adversarial networks; intelligent music; reinforcement learning; mode collapse 


` MuseGAN 模型 生成 音乐 样本 的 质量 。 类似 地 , 一 些 其 他 的 算 
0 ”相关 工作 法 作曲 的 工作 PC- 也 采用 了 这 种 人 力 的 评判 办 法 。 

音乐 作为 艺术 领域 里 一 种 重要 的 表达 方式 ， 体 现 了 一 系 一 般 来 说 ， 智 能 音乐 的 制作 过 程 需要 让 人 工 干预 的 工作 
列 人 类 所 特有 的 思维 模式 , 是 规则 性 和 创造 性 的 统一 结合 体 。 量 最 小 化 (minimal human intervention)", ZAMEN R NE 
一 方面 ， 音 乐 的 构成 天 生 基于 一 定 的 乐理 规则 ， 如 旋律 、 节 动 (total automation) 或 半自动 (partial automation) 生 成 音乐 。 
奏 、 调 式 、 和 弦 、 和 声 、 复 调 、 曲 式 等 ， 不 能 满足 乐理 规则 在 输出 的 结果 上 既 要 满足 基本 的 乐理 先 验 知识 ， 也 要 具备 一 


mud 


约束 的 乐曲 往往 在 听觉 悦耳 度 上 欠 佳 且 不 能 被 大 众 接受 。 另 。 定 的 算法 创造 性 。 文 献 [7] 中 ， 作 者 论述 该 过 程 是 从 计算 模型 
一 方面 ， 单 纯 满 足 乐理 约束 的 音乐 不 一 定 算是 好 音乐 ， 音 乐 ”中 自主 地 制作 连续 音频 信和 号 或 者 离散 的 符号 序列 ， 而 这 些 信 
本 身 还 承载 了 情感 表达 载体 的 重任 ， 这 就 需要 创作 者 不 能 墨 ”号 和 序列 必须 满足 乐理 架构 四。 
守成 规 地 进行 规则 堆砌 ， 而 需要 在 音乐 中 揉 入 创新 性 ， 使 得 晤 在 上 世纪 50 ER, 人 工 智 能 技术 刚 处 于 萌芽 时 期 ， 虽 
生成 的 旋律 不 至 于 千篇一律 ， 模 式 固 定 。 然 受到 数据 和 硬件 性 能 等 多 方面 的 限制 ， 人 们 也 开始 在 智能 
与 此 同时 ， 通 过 计算 机 算法 来 自动 生成 音乐 一 直 是 人 们 ”作曲 领域 进行 探索 ， 并 取得 了 一 定 的 成 果 。 早 期 主要 以 两 种 
较为 关注 的 领域 ， 对 该 领域 的 研究 目的 在 于 : 方式 来 生成 智能 音乐 : 
a) 借 助 计算 机 算法 来 进行 音乐 创作 可 以 降低 制作 门槛 ， 一 是 基于 统计 分 析 的 方式 ， 结 合 马 尔 可 夫 链 等 模型 进行 
节省 人 力 及 时 间 成 本 ,一定 程度 上 规避 版 权 问 题 ， 并 根据 场 ” 创作 ， 如 文献 [9] 最 早 使 用 大 型 计算 机 Illiac 创作 弦 乐 四 重奏 


景 需求 快速 进行 大 量 音乐 制作 ， 如 影视 剧 中 需要 大 量 定制 演 。 组 曲 ， 成 为 历史 上 第 一 个 完全 由 计算 机 生成 的 音乐 作品 ， 作 
染 剧 情 情感 的 旋律 等 者 使 用 马尔 可 夫 链 模型 来 产生 有 限 控制 的 随机 音符 ， 并 结合 
声 


b) 由 于 音乐 等 艺术 创作 领域 具备 的 规则 性 与 创造 性 等 特 。 和 


与 复 调 的 规则 测试 这 些 音符 ， 对 通过 测试 的 “元 素材 ” 
点 ， 对 智能 音乐 创作 的 研究 可 以 很 好 地 衡量 和 测试 人 工 智能 。” 进行 修改 合成 传统 音乐 记 谱 的 弦 乐 四 重奏 。 
能 力 的 性 能 。 不 少 音乐 生成 领域 相关 工作 在 描述 自身 的 模型 二 是 基于 乐理 规则 做 简单 的 模式 匹配 和 机 器 学 习 ， 如 文 
算法 实验 结果 时 ， 均 采用 了 组 织 自愿 者 进行 听觉 识别 的 检验 。” 献 [10] 将 乐理 融入 到 机 器 学 习 中 以 生产 音符 。 
方式 ， 从 真实 性 、 悦 耳 性 、 创 造 性 、 趣 味 性 等 多 方面 进行 考 近年 来 , 随 着 深度 学 习 及 神经 网 络 技术 的 不 断 深 入 发 展 ， 
察 统计 ， 如 文献 [通过 随机 寻找 144 位 测试 者 检验 其 。” 利用 深度 神经 网 络 来 生成 音乐 成 为 一 个 重要 的 研究 方向 
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0-1, 深度 学 习 通 


过 学 习 训 练 集中 的 样本 数据 ， 
处 理 非 线性 拟 合 操作 , 对 数据 进行 生成 或 判定 。 文献 [14, 7] 首 


借助 神经 元 


次 将 音符 时 序 性 考虑 在 内 ,采用 循环 网 络 (recurrent networks) 


生成 数据 。 


[span HH 


度 系数 (density)， 采 月 
户 品 味 的 音乐 。 


文献 [15] 将 音乐 元 素 拆 角 
昌 反 向 传播 算法 训练 
文献 [16] 更 进一步 提出 端 到 端的 深度 神 


f 73 1 FEE X (mode) RUTK 
经 网 络 来 拟 合 符 


经 网 络 音 5 VEI As 
, MuseGANUISS fp 3x E 


MidiNetP 


提升 了 智能 生成 质量 。 
同时 ， 一 些 与 自 


术 的 扩展 作为 


此 后 一 些 深度 学 习 模 型 


如 WaveNetll, 


研究 成 果 的 基础 上 , 进一步 


环 网 络 结构 ) 


了 端 到 端的 音乐 输出 ; 


的 隐 式 特征 ， 


j 于 音乐 生成 中 ， 摆 
文献 [47] 基 于 栈 式 自 


然 语 言 处 理 相关 的 技术 也 同时 被 引入 到 
了 音乐 生成 的 领域 07 区 。 国 内 也 有 不 少 研究 者 将 
音乐 生成 的 重要 手段 : 文献 [46] 将 字符 级 的 循 
部 了 传统 的 特征 工程 ， 实 现 
编码 器 提取 音符 


自然 语言 技 


并 送 入 循环 网 络 以 生成 音乐 单纯 的 声音 信号 


或 者 


自然 语言 处 理 与 智能 音乐 处 


成 音乐 的 最 简单 元 素 音 符 
然 语 言 处 理 (NLP) 相 关 的 自然 属 改 


也 


ES 


F 下 文 相关 性 ， 


里 相 比 有 众多 相似 之 处 ， 构 


时 序 性 等 自 


E， 不 同 之 处 在 于 : 


a) 音乐 存在 多 轨 的 概念 ， 如 吉 人 他， 钢琴， 人 声 ， 和 弦 ， 


贝斯 等 ， 而 NLP 处 到 

b) 音乐 的 对 
deg, BLU 
语言 的 先 验 性 知识 。 


技术 的 不 断 进 


随 着 AI 


也 在 其 中 得 到 了 进 


图 形 生 成 5 


不 涉及 多 轨 ; 


EJH]SERISA. BP. 


旋律 、 


练 推导 过 程 (只 需要 做 反 向 传播 ， 避 玫 
样 ), 被 引入 到 了 众多 应 用 
， 图 形 压 缩 E0， 语 音 生 成 四， 超 分 罚 


场景 中 得 到 ] 
生成 文本 ， 


广泛 应 用 


可 以 进行 对 话 生 成 、 机 器 翻译 、 


符 的 概率 分 布 空 间 有 其 特殊 的 ， 


复 音 等 乐理 规则 


的 


有 别 于 自然 


化 更 新 ， 音 乐 创作 的 形式 化 技术 
步 的 发 展 。 近 年 来 ， 
(generative adversarial networks, GANs)u91 在 数据 生成 领域 


生成 对 抗 网 络 


中 收 到 越 来 越 多 的 重视 ， 依 靠 其 强大 的 拟 合 能 力 和 简单 的 训 


F 了 马尔 可 夫 链 反复 采 
领域 (特别 是 计算 机 视觉 )。 GANSs 在 


ES Xe JASA 


。 文献 [20] 中 ,作者 指出 : 


“GAN 也 能 


语音 生成 等 . 同时 ， 


GAN 在 其 他 领域 也 有 涉及 ， 比 如 生成 音乐 、 密 码 破 译 等 . 但 


是 GAN 在 其 他 领 
GAN 在 其 他 领域 的 应 | 


或 的 应 上 


网 络 在 人 


智能 方 


成 四 [9 及 音乐 创作 的 研究 也 一 直 处 于 探索 发 展 的 阶段 ， 


得 了 不 少 成 果 。 研发 现 ， 对 算法 作 


相对 较 多 ®? 


网 络 的 方式 来 生成 音乐 的 综述 文献 相对 角 
写 时 ， 没 有 相关 综述 对 以 下 几 点 进行 过 全 面 考量 和 


通过 


九 ， 


不 显著 , 那么 ,， 如何 提 高 
效果 将 值得 深入 而 
PH.” 利用 GANs 来 进行 语音 


使 生成 对 抗 


的 综述 文献 数量 


,23]， 然 而 对 


对 近年 来 利用 


GANSs 网 络 进 


行 音乐 


介绍 ;b) 对 相关 研究 


效果 及 缺陷 等 进行 全 面 
本 文 重点 关注 


上述 几 点 ， 力 求 为 后 续 研 究 者 提供 和 


总结; 


[基于 深度 学 习 特 别 是 基于 生成 对 
失 。 截 止 到 论文 撰 


总 结 : 


成 领域 的 技术 进展 进行 
果 的 模型 结构 、 数 据 形式 、 


训练 技巧 ， 


c) 对 相关 发 展 趋势 进行 展望 。 


完 依据 。 


1  GANs 及 其 在 音乐 生成 领域 的 重要 衍生 模型 


2014 Æ, CERJE A E H 


于 从 训练 样本 中 学 习 出 新 村 


任务 是 让 模型 尽 可 能 殷 
致力 于 区 分 输入 


造 的 假 数据 。 


达到 一 种 纳什 均衡 


本 。 


HTA 
该 网 络 


成 对 抗 网 络 的 概念 ， 用 
两 个 子 网 络 组 成 ， 
分 别 是 生成 器 (generatom 和 判别 器 (discriminator)。 生 成 器 G 的 


GANs 的 对 抗 训练 与 
架 和 思想 ， 理 论 上 来 说 ， 生 成 器 和 判别 器 
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其 说 是 模型 不 如 说 是 提供 了 一 种 杠 


的 函数 的 实现 ， 


| zu > 


不 


4 


pom 


GANS È 


可 以 用 任意 可 微分 


局 限于 多 层 感知 机 或 卷 积 神经 网 络 。 


1 
| GANs 模 型 | 
1 
1 


号 


乐 生成 模型 


图 1 


GANS KH 


衍生 的 音乐 生成 模型 


Fig. 1 Gans and compositional models derived from them 


1.1 


DCGANs 


DCGANs 全 称 为 深度 卷 积 生成 对 抗 网 络 (deep convo- 


lutional GANS)P3]。 
方式 ，DCGANSs 的 生成 器 G 和 判别 器 D 均 


区 别 于 原始 GANs 中 


多 


层 感 知 机 实现 的 
使 用 深度 卷 积 网 


络 来 实现 ， 并 做 了 一 些 工程 化 改进 技巧 ， 如 去 除 池 化 层 ， 使 


用 DCGANs 
1.2 


Batch Normalization 协助 模型 4 
维 张 量 数据 的 处 理 。 DCGANSs 在 图 形 处 理 方 
的 应 用 ， 同 时 ， 将 音频 数据 进行 矩阵 化 预 


Progressive GANs 
NVIDIA 发 布 的 Progressive GANSD24 提 出 了 一 种 动态 增 


类 速 收敛 等 


等 ， 非 常 适合 对 多 


用 得 到 较为 广泛 


来 进行 处 理 铝 。 


处 理 后 ， 也 可 以 使 


加 模型 训练 层 数 的 方法 ， 提 升 模型 生成 质量 。 模 型 从 低 分 辨 


率 的 图 像 ( 如 
动态 


也 逐渐 增加 两 者 的 
的 大 致 框架 ( 低 分 辨 率 所 覆盖 


4*4) 开 始 同 时 训练 G 和 D, 


移 到 


1% 


节 上 去 ( 


对 G 和 DD 来 说 是 对 称 的 ， 并 且 更 新 层 数 后 保持 已 
数 继续 训练 ， 既 保证 了 高 分 辩 率 合成 像素 的 稳定 性 ， 
了 训练 的 速度 。 文 献 [38] 采 用 I 


旋律 。 
1.8 WGAN 


随后 在 训练 过 程 中 


导数 。 该 模型 在 训练 中 首先 聚焦 图 像 
的 信息 )， 然 后 逐步 将 注意 力 转 
高 分 辨 率 所 蕴藏 的 信息 )。 整 个 添加 过 程 


-GP 


Loss 函数 的 本 身 缺 陷入 手 , 解 释 了 GANSs 训 


D 一 旦 被 训练 得 太 好 ， 则 


化 ， 


两 者 在 
的 


SES 
的 数据 是 来 源 于 
ZR 
里 想 状 态 ， 


的 训练 数据 分 布 ， 
实 的 数据 还 是 由 生成 器 制 


， 不 断 提升 


判别 器 D 


身 能 力 ， 最 终 
使 生成 器 生成 的 数据 最 大 可 


能 地 贴近 真实 数据 分 布 。GANs 的 基本 损失 函数 如 下 : 


min max V(D,G) = E,.,, ,.ollog D(X)]+ 


E.., (Sllog(1 7 D(GC2)] 


(1) 


同样 不 能 让 G 进行 有 效 的 学 习 。 


G 无 法 得 到 足够 


该 对 抗 训练 方式 来 生成 音乐 


RIZ 


也 加 快 


GANs 虽然 在 理论 上 对 数据 生成 质量 有 极 强 自 证 性 [9， 
但 是 在 实际 训练 中 往往 难以 在 收敛 性 和 可 靠 性 上 达到 较为 理 
想 的 程度 。 文 献 [26] 通 过 人 刨 析 生 成 器 拟 合 原始 数据 的 原理 和 


| 练 不 稳定 的 原因 。 
的 梯度 信息 继续 优 


甚至 出 现 梯 度 消失 的 情况 ， 而 如 果 D 的 识别 能 力 不 足 ， 
司 时 文章 也 从 衡量 散 度 距离 


的 角度 出 发 指出 了 采用 其 他 形式 的 loss K 


E, 


文献 [27 


称 Wasserstein 
拉 近 EM 距离 作为 GANs 的 训 
Lipschitz 限制 的 loss 


Lipschitz BR | 


解释 了 造成 模式 塌陷 ， 训 练 难以 收敛 的 原因 。 
Earth-Mover( EM) 距 离 ， 又 
实数 据 和 生成 数据 的 分 布 ， 


] 在 此 基础 上 提出 采用 
距离 来 衡量 


练 目标 。 


数 训练 GANs 的 不 


以 
作者 采用 满足 1- 


函数 来 蔡 代 求 解 EM 距离 。 为 满足 1- 


出 ， 在 实际 网 络 训 练 中 ， 模 型 


的 每 次 更 新 都 要 把 


参数 截断 在 某 个 范围 ( 即 weight clipping)。 以 此 种 方式 训练 的 


模型 即 Wass 


WGANs 虽然 解决 了 原始 GANs 的 一 些 问题 ，1 


erstein GANs， 也 妈 WGANSs. 


本 身 也 
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存在 一 些 不 足 。 后 续 文献 [28] 指 出 weight clipping 的 方案 可 能 数据 训练 过 程 中 无 法 回 传 梯度 的 难题 。 同 时 ， 利 用 蒙特 卡 洛 
会 导致 大 部 分 的 模型 参数 都 被 集中 设置 为 正 负 0.01。 为 了 解 ” 树 搜索 (Monte Carlo tree search，MCTS) 的 思想 ， 对 G 生成 的 
决 该 问题 ， 作 者 又 在 原 WGANSs 的 基础 上 给 loss 函数 加 入 梯 离散 数据 序列 进行 序列 补 全 (roll out), AE D 就 可 以 对 任意 
度 惩罚 项 (gradient penalty , GP), 新 的 网 络 模 型 就 叫 WGAN- ” 时刻 的 非 完 整 序列 进 行 评估 ,解决 了 这 两 个 问题 后 , SeqGANs 
GP， 如 公式 所 示 。 等 式 右边 第 一 项 即 为 原始 的 WGANs 的 距 将 对 抗 生 成 数据 的 问题 统一 到 强化 学 习 标 准 的 action-value 求 解 
离 衡 量 函 数 ， 本 质 上 是 用 随机 变量 的 数字 特征 (均值 ) 的 距离 模型 中 ， 分 别 应 用 在 文字 和 音符 的 生成 示例 中 。 
来 表征 两 个 分 布 的 距离 。 等 式 第 二 项 即 为 梯度 惩罚 项 ， 保 证 作者 基于 SeqGANs 模型 ， 对 Nottingham 数据 集 
T G 的 生成 数据 在 向 真实 数据 x 靠近 的 过 程 中 , D(G(z)) 不 超 (http:/www.iro.umontreal.ca/~lisa/deep/data) 中 的 695 首 midi 


过 D(x), 保持 梯度 的 稳定 性 。 文献 [5] 采 用 式 (2) 中 基于 EM 距 ”歌曲 样本 进行 预 处 理 ， 提 取 音 调 独 奏 solo 音 轨 进行 训练 ， 使 

离 的 loss 函数 对 midi 音乐 进行 了 生成 训练 , 较 好 地 提升 了 模 均 方 误差 MSEB0 作 为 测评 量化 标准 , 结果 显示 生成 音符 质 

型 的 稳定 性 。 量 好 于 最 大 似 然 估 计 MLE 所 生成 音符 。SeqGANs 作为 标准 

L- LDQOI- ELDG) D AE, KI NT D le -D (2) 架构 介绍 ， 作 者 并 未 将 应 用 生成 作为 重点 铺 开 ， 示 例 中 对 音 

: v» 乐 的 生成 也 仅仅 限制 于 单调 音乐 (monophonic melody), Jr 

1.4 SeqGANs 工作 站 中 进一步 应 用 SeqGANS 对 音乐 元 素 进行 word2vector 
长 期 以 来 GANs 的 学 习 对 象 都 是 以 图 像 构建 的 连续 张 量 编码 训练 ， 生 成 复 调 音乐 (polyphonic music). 


数据 , 对 于 离散 数据 (如 文字 , 音符 ) 则 因为 梯度 回 传 困难 的 原 a A 
因 进 展 缓慢 。 文 献 [29] 结 合 了 强化 学 习 和 GANs 对 抗 训练 的 2 ”基于 GANs 的 音乐 生成 方法 

思想 ， 开 创 了 一 个 冉 新 的 训练 模式 。 作 者 把 整个 GANS 网 络 近年 来 ， 基 于 GANS 的 音乐 生成 方法 数量 昌 然 不 太 多 
看 做 一 个 强化 学 习 系统 ，D( 基 于 CNN) 输 出 得 分 作为 强化 学 “但 很 多 重要 方法 信 得 借鉴 ， 本 章 对 相关 方法 进行 了 介绍 ，3 


I ~ 
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习 中 的 奖励 信号 (reward signal) UR a AGE R, RH 点 关注 其 算法 ， 模 型 架构 ， 数 据 表 达 ， 效 果 及 缺陷 等 方面 ， 
Policy Gradient 算法 对 G( 基 于 RNN) 进 行 更 新 ， 解 决 了 离散 并 在 表 1 中 进行 了 相关 对 比 。 
R1 基于 GANSs 的 重要 音乐 生成 模型 对 比 
Tab. 1 Comparison of various important compositional models based on GANS 
模型 EF GAN 架构 ” 网络 模型 效果 局 限 性 
C-RNN-GAN 原生 GANs RNN 相 较 于 非 对 抗 训练 模型 提升 显著 听觉 感受 不 佳 
JazzGAN 原生 GANs RNN ee 生成 音乐 风格 受 限 
RNN-GAN X seqGAN 
viis DOGAN ONN AART ORNNGAN 音符 力度 未 参与 训练 ， 无 法 识别 长 拍 音符 
和 短 拍 连续 按键 音符 的 区 别 ， 表 现 力 弱 
MuseGAN WGAN CNN 测试 发 现 三 种 模型 中 Hybrid model 效果 最 优 没有 将 和 弦 的 先 验 条 件 考 虑 在 内 
GANsynth o M ane WN iced BEGRLTSUA 0 5 NSBUEDE RIO, UAE 
RNN 
SeqGAN SeqGAN / 仅 能 生成 单调 音乐 
CNN 
复 调 SeqGAN ^ SeqGAN / BUHE, ERAZIS 
CNN 
2.1 主干 网 络 为 RNN 的 方法 值得 注意 的 是 ， 该 模型 在 训练 过 程 中 使 用 了 一 些 技巧 ， 


循环 神经 网 络 架 构 (recurrent neural networks ,RNNs) 通 常 。” 提升 了 训练 质量 ， 如 a) 使 用 L2 正则 对 G RI D 的 权重 做 正则 


用 于 对 序列 数据 建 模 ， 如 自然 语言 处 理 中 预测 下 一 个 单词 ， 化 约束 ; b) 在 训练 初期 单独 对 G 进行 了 6 个 epoch 的 训练 ， 
或 在 音乐 生成 中 对 下 一 个 音符 进行 推断 BV 汶 。 在 该 预 训练 过 程 中 ， 对 采样 的 序列 长 度 做 了 管理 ， 从 小 序列 
a) C-RNN-GAN 开始 逐渐 加 大 ,最 后 变 成 长 序列 , 最 终 提升 了 训练 的 稳定 性 ; 


文献 [33] 提 出 了 C-RNN-GAN 的 模型 , 作者 受 文献 [34] 中 — e) 采用 了 文献 [35] 中 的 冻结 技巧 , 25 D 或 G 的 能 力 对 比 达 到 
coarse-to-fine 生成 图 片 的 启发 ， 使 用 RNN 网 络 (准确 来 说 是 阶段 性 不 平衡 时 ， 可 能 会 造成 弱势 一 方 的 梯度 消失 ， 此 时 应 


双向 长 短 时 记忆 网 络 Bi-LSTM) 来 实现 GANs 中 的 生成 器 和 对 过 于 强大 的 一 方 实施 冻结 ; d) 采用 了 文献 35] 中 的 特征 匹 
判别 器 ， 生 成 符合 midi 标准 的 时 序 性 连续 数据 。 配 技巧 , 将 G 的 目标 函数 替换 为 使 真 假 样本 的 特征 差 值 最 小 
C-RNN-GAN 采用 了 标准 的 原始 GANS 损失 函数 进行 训 化 。 
dk. HG 生成 连续 化 序列 数据 ，D 区 分 生成 数据 和 原始 数据 C-RNN-GAN 作为 将 对 抗 思想 引入 到 音乐 生成 工作 中 较 
的 真 盆 ， 如 图 X 所 示 。 作 者 构建 了 一 个 四 元 组 数据 ， 分 别 用 为 早期 的 和 尝试， 从 人 耳 听 觉 感受 上 来 说 ， 其 生成 结果 完全 不 
以 表征 音符 长 度 ， 音 符 频 率 ， 音 符 力 度 时 长 (tone lengths, 能 和 真实 样本 相提并论 。 但 是 ， 作 者 将 对 抗 机 制 取 消 ， 以 单 
frequencies, intensities, and timing). 纯 RNN 网 络 生成 的 音符 作为 评测 标准 ( 即 直 接 使 用 架构 中 的 
RIMERÜBNCHR G 来 进行 生成 )， 从 几 个 维度 来 进行 对 比 实验 后 ， 发 觉 生成 的 
san | BENT NECI LR 上 有 较为 显著 地 提升 ， SERM 音调 更 
t t 为 合理 ， 复 音 更 为 丰富 ， 更 贴近 于 原始 训练 样本 。 

auan: lems. AERE EY DID] b) JazzGAN 
verrig tgp XC ER[36]2u T T E— ^ BS -EEER I SICE DR RETA 
图 2 C-RNN-GAN 流程 示意 图 用 生成 对 抗 网 络 来 生成 茵 士 音乐 ， 其 主干 模型 采用 的 是 循环 
Fig.2 Illustrion of C-RNN-GAN'Ss pipeline 神经 网 络 RNN， 也 是 首 个 基于 RNN 和 GAN 使 用 离散 化 序 
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录用 定稿 


列 (确定 的 音符 种 类 ) 进 


行 音乐 


D H, $: 基于 生成 对 抗 网 络 的 智能 音乐 制作 综述 


且 在 趣味 性 上 有 具备 优势 。 但 MidiNet 没有 有 效 将 音符 力度 融 


E 成 的 模型 。 相 比 于 一 般 的 音 


IRR, KER 


符 ( 不 在 和 弦 范 围 


以 往 模型 


调 性 改变 频繁 ， 节 奏 不 依 常规 ， 离 弦 音 
全 ) 较 多 的 特性 。 


[生成 的 传 


统 音乐 中 缺乏 咒 士 类 音乐 的 上 述 创造 性 。 该 文 在 模型 架构 上 


没有 做 太 大 的 更 新 ， 洛 


身 特点 提出 了 
质量 评定 标准 。 


1 了 原生 的 LSTM, 
系列 更 有 针对 性 的 训练 数 


BEAR 


CES ub ESI 


在 数据 方面 ， 与 C-RNN-GAN 不 同 的 是 ，JazzGAN 生成 
的 是 离散 的 音符 种 类 (discrete pitch classes)， 而 不 是 回归 浮 点 
数 类 型 的 音符 频率 (real-valued frequencies)， 将 休止 符 当 作 一 


个 特定 种 类 解决 前 者 无 法 处 理 休止 符 的 问题 。 作者 使 用 RNN 
搭配 GAN 架构 测试 了 三 种 不 同 的 旋 久 
为 时间- 步 长 编码 方式 (首次 在 RNN 搭配 GAN 结构 中 使 用 


该 编码 方式 ), 音符 时 长 编码 方式 (C-RNN-GAN 和 SeqGAN[29] 


节奏 编码 方式 ， 分 别 


的 编码 方式 ) 和 音符 3 


li, JazzGAN 洛 月 


counts) 和 音域 跨度 (tone spans) 三 个 标准 


位 置 编码 方式 (和 音符 
之 处 在 于 预测 音符 的 结束 时 间 值 而 不 是 音符 时 长 值 )。 
在 质量 评定 标准 广 
调 性 一 致 性 (scale consistency)， 重 复 


时 长 编码 不 同 


明了 C-RNN-GAN 的 


音符 计 


F 数 (repetition 


也 综合 了 


MuseGAN 提 出 的 几 个 验证 标准 ，a) 单 个 序列 中 生成 音符 种 
类 数量 ，b) 合 格 的 音符 (在 MuseGAN 中 被 定义 为 时 长 超过 三 


十 二 分 之 一 音符 的 


个 时 间 步 的 音符 


实验 结果 表明 音 
的 评测 中 都 领先 于 C-RNN-GAN 及 SeqGAN. 


符 节奏 


2.2 主干 网 络 为 CNN 的 方法 
卷 积 神经 网 络 (convolutional neural network, CNN) 具 备 的 


参数 共享 性 ， 特 和 
FRE RRIK EZ 


平移 不 变性 ， 邻 近 数 据 特 生 


位 置 编码 方式 在 大 多 数 性 能 标准 


捕捉 等 性 质 使 


CNN 在 训练 速度 及 并 行 性 
但 是 由 于 CNN 的 卷 积 感受 野 有 限 ， 


在 JazzGAN 中 被 定义 为 时 长 超过 48 


昌 的 处 理 上 有 具备 了 得 天 独 厚 的 优势 .同时 ， 


上 显著 优 于 循环 迭代 架构 的 RNN， 


增 大 卷 积 核 尺 寸 对 模型 


整体 效率 影响 显著 , 且 CNN 的 数据 组 织 受 限 , 所 以 未 能 广泛 


应 用 在 音乐 制作 上 。2016 年 ，Deepmind $H 


(dilated convolutiom) 的 概念 以 提升 卷 积 


仅仅 关注 于 数据 的 


序数 据 也 有 具备 特 和 


了 新 的 思路 。 
1) MidiNet 


受 WaveNet 的 启发 ， 文 献 [5] 的 作者 尝试 
FPF 加 入 对 抗 训练 机 制 ， 
采用 纯粹 的 连续 时 i 


音乐 并 在 训练 系统 
MidiNet。MidiNet 没有 
而 是 以 小 节 为 单位 (ban)， 对 小 节 进 行 逐 一 入 
同时 将 前 序 生成 的 bar 作为 条 件 ， 输 入 到 下 个 G 的 生成 过 程 
中 。 这 样 MidiNet 模型 既 可 以 从 scratch( 不 
也 能 从 前 置 音乐 片段 中 生 


数据 ) 中 生成 旋律 ， 


ij 


73 1D zk 2D 向 量 


文件 切 分 成 bar, 


组 织 成 h*w 


RE 
ri 


HT "d 
的 感受 野外 , 使 模型 不 
局 部 相关 性 ， 而 对 具备 一 定时 间 跨 度 的 时 
E 提 取 的 功能 。 基于 空洞 卷 积 搭建 的 
WaveNet 模型 由 ， 给 音频 及 音乐 等 序列 数据 的 处 理 方式 提供 


] CNN 来 生成 
该 模型 被 称 为 
序列 生成 旋律 ， 
E 成 (one by one), 


条 件 的 噪声 


入 训练 ， 也 无 法 识别 长 拍 音符 和 短 拍 连续 按键 音符 的 
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在 表现 力 上 依然 存在 一 定 缺 陷 。 


2) MuseGAN 


文献 [1] 提 出 了 音乐 生成 在 时 序 性 ,多 轨道 4 


杂 性 上 与 一 般 的 像素 生成 有 显著 区 别 ， 并 提出 了 
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区 别 ， 


里 复 
于 生 


成 对 抗 训练 的 模型 来 生成 音乐 : Jamming 模型 Composer 模 


型 和 Hybrid 模型 ,每 个 模型 的 主干 网 络 都 采 
练 的 WGANPC7 作 为 基准 


由 独立 的 G 来 生成 ， 并 


model 中 所 有 音 轨 统一 


保证 整个 多 轨道 旋律 既 有 自身 的 特征 也 有 全 局 统一 调配 的 和 
PF 架构 的 生成 结果 效果 更 优 。 上 述 
E 成 单个 的 小 节 bar, fH bar 


谐 性 ， 实 验 效果 也 说 明 出 
结构 目的 在 于 怎样 在 不 同音 轨 中 台 


抗 识 别 ; 而 Hybrid model 
础 上 更 进一步 ， 每 个 音 负 


在 Jamming model 的 分 立 G 生成 
生成 时 附带 有 额外 的 输入 信息 ， 


了 更 易于 训 
网 络 。Jamming model 中 每 个 音 轨 都 
独立 的 D 来 对 抗 识别 ; 
一 个 G 来 生成 , 也 有 统一 的 DD 来 对 


Composer 


与 bar 之 间 的 时 序 关 联 需要 


saa 


MuseGAN: Composerli i 


Fig.3 Illustration of 3 types of musegan 


与 文献 [5] 一 致 的 是 , MuseGAN 也 更 力 


生成 而 非 单纯 对 note 进行 生成 。 作 者 从 


(LMD) 数 据 集 中 挑选 出 了 10 万 个 bar 来 进行 训练 ， 台 


AN: Hybrid 模型 


其 他 的 结构 来 补充 生成 。 
4 m 


图 3 MuseGAN 的 三 种 模型 示意 


以 


[关注 对 小 节 bar 的 
Lakh MIDI dataset 
E 5 个 


轨道 的 琴键 数据 (piano-rolls)， 分 别 是 : 贝斯 , 鼓 , 吉 他 , 钢琴 和 
弦 乐 。 在 预 处 理 过 程 中 ， 作 者 将 钢琴 琴键 值 转换 为 矩阵 X, 


每 个 X 的 矩阵 大 小 是 加 


ER, AFJ 


F CNN HERA 


还 提出 了 一 些 量化 标准 来 衡量 入 


中 ,根据 WGAN 的 优化 训练 理论 P3， 作 者 控 人 
更 新 次 数 , 使 得 每 跟 新 一 次 G 则 更 新 5 次 D， 以 提升 D 的 识 


别 能 力 更 好 地 训练 G。 


MuseGAN 没有 将 和 弦 的 9 


MidiNet 有 所 不 同 。 
3) GANsynth 


成 旋律 ( 需 编 码 
o 为 了 适应 CNN 的 数据 处 理 , 作者 将 midi 
HERE, h 表示 需要 考察 的 


midi 音符 的 数量 ,w 是 一 个 bar 中 的 时 间 印 戳 单位 (time_step)， 


多 个 轨道 就 需要 


网 络 的 不 同 层 中 


提出 的 特征 匹配 和 
准 损失 函数 的 交叉 粮 的 时 候 ， 正 样本 的 标签 使 
平滑 ， 模 型 收敛 性 更 强 。 

通过 对 8 个 小 节 的 音乐 生成 测试 ， 作 者 发 
的 旋律 对 比 常规 RNN 模型 的 生成 结果 来 说 , 更 真 


用 DCGANSsP?I, [i] 
些 先 验 知识 (如 前 


1， 使 梯度 反 传 更 加 


的 性 质 ， 如 何 保持 周期 信号 的 规律 ; 
说 至 关 重 要 。 作 者 提出 在 频谱 域 (spectral domain) 对 音乐 数据 
进行 对 抗 训练 处 理 的 模型 GANynth， 相 对 于 按 序列 4 
的 自 回 归 模 型 , 如 WaveNet, 整体 生成 速度 快 了 接近 5 万 倍 。 


GANynth 主体 使 


] Y Progressive GAN 


文献 [38] 提 出 与 图 片 数据 不 同 ， 语 音 和 音乐 具有 


成 的 音乐 质 


LE 


成 音频 


的 架构 多, G 通 


过 一 系列 卷 积 层 将 球 型 高 


FE。 同时 
。 在 训练 过 程 
B GA D H 


E 验 条 件 考虑 在 内 ， 这 点 与 


期 性 
生 ， 对 生成 结果 的 质量 来 


分 布 中 采样 的 噪声 z 样本 数据 逐 


步 上 采样 ,生成 完整 的 声音 张 量 后 送 入 


织 多 个 矩阵 数据 。 模 型 的 主干 网 络 实现 采 
时 在 网 络 中 加 入 了 条 件 控制 机 制 ， 使 得 一 
可 以 被 编码 为 1D 或 2D 向 量 融合 到 

在 GANs 的 训练 过 程 中 使 用 了 文献 [35] 中 
和 边 标签 平滑 的 技巧 ， 即 在 计算 GANS 标 
正 样 用 0.9 RER 


岗 该 模型 生成 


实 悦耳 , 并 


由 了 判别 其 与 真实 分 布 的 差异 怕 
梯度 惩罚 P8 来 提升 Lipschitz 连续 性 。 


D( 架 构 
FE, 模 型 中 采 


HHJ 


为 G 的 镜像 )， 
] WGAN-GP 的 
曾 加 了 


标签 向 量 信 息 ， 因 此 也 在 D 的 损失 函数 中 加 入 了 ACGANB9] 


的 辅助 分 类 损失 函数 auxiliary classification 来 预测 其 
相 比 于 之 前 的 工作 GANsynth 最 大 的 创 


新 点 在 于 用 一 系 


列 的 频谱 表示 数据 来 训练 GAN 。 作 者 认为 对 于 音乐 这 样 体 


现 出 强烈 周期 性 质 的 数 拉 


GAN 优 于 其 他 的 数据 表示 (如 波 


昌 ， 为 相位 分 量 生成 瞬时 频率 (IF) 的 
6), KIE, GANsynth 并 不 


录用 定稿 


直接 通过 对 抗 生 成 波 下 


尔 谱 中 间 数 据 ， 再 将 该 中 间 数 据 经 过 短 时 傅 旦 


ChinaXiv 合 作 期 刊 


D H, i 基于 生成 对 抗 网 络 的 智能 音乐 制作 综述 第 38 卷 第 3 期 


文件 ， 而 是 将 生成 的 张 量 数据 视 为 梅 。 ”中 预测 旋律 序列 的 分 布 。G 模型 的 主干 网 络 采用 RNN, D E 
叶 变 换 转换 为 。” 型 的 主干 网 络 采 用 CNN， 同 时 将 原始 GAN PAAR 


LH 
o 


频谱 数据 ， 最 后 再 根据 频谱 数据 合成 波形 数 ] 函数 蔡 换 为 最 小 二 乘 GANs[ 中 提出 的 最 小 二 乘 损失 ， 以 提 
作者 认为 给 定 声 波 波 形 有 自己 的 周期 ， 波 形 一 旦 被 反 卷 。” 高 模型 的 稳定 性 和 收敛 性 。G 在 每 一 个 时 间 步 (time step) 的 生 
积 或 者 短 时 传 里 叶 变 换 (STFT) 等 基于 帧 的 技术 处 理 ， 则 又 会 ”成 结果 序列 都 会 被 补 全 后 交 由 D 进行 评判 ， 由 D 给 出 得 分 
相应 的 帧 周期 概念 ， 波 形 固有 周期 和 帧 周期 之 间 无 法 精确 ”作为 奖励 信号 ，G 基于 该 奖励 信号 进行 更 新 优化 。 
对 齐 。 对 于 反 卷 积 来 说 很 难 覆 盖 到 周期 内 所 需 的 频率 数据 ， 为 了 增强 对 复 音 音乐 的 生成 能 力 ， 作 者 借鉴 了 
也 很 难保 证 司 的 连贯 性 。 如 果 采 用 STFT 将 波形 performanceRNN(https://magenta.tensorflow.org/performance- 
换 为 在 频 域 中 处 到 


数据 ， 则 可 以 以 2x 为 周期 来 编码 数据 ， 并 ”rom) 的 对 音乐 数据 的 表达 方式 ， 训 练 数据 与 SeqGAN 采用 1 
采样 其 顺势 径 向 频率 (instantaneous radial frequency)， 将 波形 

结合 在 了 一 起 。 据 集中 挑选 出 的 是 固定 时 间 步 长 的 单调 音乐 样本 ， 
GANynth 模型 采用 的 数据 集 是 基于 NSynth dataset 的 预 。 PolyphonicSeqGAN 则 使 用 复 调 样本 来 进行 训练 .作者 从 midi 


频率 与 帧 频率 很 好 地 


处 理 样 本 ,包含 了 来 自 
大 量 的 音色 和 音符 数据 ， 并 包含 了 对 这 些 ”从 起 始 时 间 ， 时 长 ， 音 符 值 等 维度 进行 记录 ， 和 弦 也 由 组 成 


相同 的 数据 集 Nottingham， 但 与 之 不 同 的 是 ，SeqGAN 从 数 


1000 种 乐器 的 300000 个 乐器 声音 数 ”样本 中 抽取 的 元 数据 被 分 为 和 弦 和 音符 两 个 种 类 ， 音 符 数据 


和 名 人 脸 部 头 


高 化 标注 信息 ， 形 成 了 音符 、 强 度 、 乐 器 、 听 的 根 音 、 三 音 等 元 素 进 行 记录 形成 多 维 向 量 组 ， 随 后 通过 词 

等 丰富 的 标签 。 CelebFaces Attribute( 简 称 celebA JAIE 典 (Vocabulary) 映 射 的 方式 转换 为 租 入 向 量 ， 送 入 模型 。 

盟 性 相关 任务 领域 中 被 大 量 使 用 ， 该 数据 集 包 含 200K PolyphonicSeqGAN 的 生成 结果 显示 虽然 生成 对 抗 机 制 
的 像 ， 每 张 样本 都 标注 有 40 个 属性 , 并 且 所 虽然 在 很 大 程度 上 提升 了 音乐 空间 的 建 模 处 理 能 力 ， 但 是 

妈 片 进行 了 裁 前 对齐， 保证 数据 分 布 的 统一 性 。NSynth 数 ” GANs 中 一 些 天 生 缺 陷 ， 如 模式 崩塌 造成 生成 的 乐曲 单一 化 


I| 
据 集 的 制作 动机 是 希望 形成 音乐 数据 和 
的 单个 音符 ， 从 时 此 
使 带 训练 模型 更 关注 于 数据 本 身 特征 (如 来 修正 该 缺陷 Pi2l。 同时 , 由 于 蒙特 卡 洛 树 搜索 的 随机 性 质 ， 


化 对 齐 (aligned)， 


中 的 celebpA， 聚 焦 于 (G 采用 覆盖 小 范围 分 布 的 生成 方式 来 欺骗 D 而 不 是 尽力 拟 
尺度 、 方 差 上 进行 归 。” 合 真实 数据 分 布 )， 作 者 也 提出 可 以 采用 WGAN 的 EM 距离 


Yit 


HUC 


202009.00119v1 


" 
C] 


iV 


china 


标注 ， 方 便 进 行 条 
被 规范 化 为 4 $, 
围 覆 盖 MIDI 标准 编码 的 24-84. 


音色 ， 音 准 等 )， 


] 时 对 每 个 音符 样本 进行 了 14 个 类 特征 的 ” ”使 得 生成 结果 变化 较 大 且 具 有 不 可 重复 性 。 另 外 ， 模 型 生成 
牛 控制 训练 。 数 据 集 中 每 个 样本 的 时 长 ” ”效率 不 高 ,相对 于 负 对 数 似 然 估计 (log-likelihood NLL) 生 成 来 
采样 频率 16 kKHz， 维 度 为 64000， 音 调 范 说 ， 要 慢 十 倍 左右 。 


3 ”基于 生成 对 抗 网 络 进行 音乐 生成 技术 的 现状 及 


实验 结果 显示 ,GANynth 模型 对 声 谱 图 进行 高 频率 分 辨 展望 


率 采样 的 设 


图 分 辨 率 为 [(128, 1024, 2)])， 生 成 的 音 


乐 数据 在 人 耳 听 觉 ， 分 布 相似 度 距 离 ，Inception 得 分 (借助 GANs 为 研究 者 提供 了 一 种 对 抗 训练 的 框架 和 思想 ， 而 


Inception 网 


WaveNet 都 


内 的 其 他 音 


了 判定 的 分 数 ) 等 几 个 指标 上 面相 对 于 没有 具体 限制 模型 实现 的 方法 ， 因 此 具备 较 强 的 灵活 1 


生 和 扩 


TRAKAI 
频 进 行 领域 迁移 (domain transfer) 学 习 的 基础 ， 为 包括 语音 在 众多 音乐 生成 的 工作 充分 利用 了 GANs 的 优势 和 特点 ， 在 原 
生成 工作 提供 了 借鉴 意义 。 但 是 生成 结果 也 表 ^E GANs 的 基础 上 ,将 RNN，CNN， 强 化 学 习 RL 等 模型 扩 


RA. BETERE T&F GANs 对 音 展 性 , 可 以 将 任何 合适 的 主干 网 络 和 损失 函数 融入 该 框架 中 。 


明 , GANs 自身 存在 的 一 些 问题 在 GANynth 模型 中 依然 没 得 。” 展 应 用 至 对 抗 框架 中 ， 取 得 了 较 好 的 效果 。 据 观察 : 
到 有 效 地 解决 ， 如 模式 塌陷 。 a) 采用 对 抗 训练 的 模型 生成 音乐 效果 明显 优 于 非 对抗 
23 结合 强化 学 习 的 GAN 生成 音乐 训练 的 生成 效果 B3.39 

正如 文献 [48] 中 所 描述 :“ 作 曲 系统 可 以 朝 着 集 多 种 方法 b) 对 音乐 生成 的 最 小 关注 单位 从 音符 (note) 向 小 节 (bar) 


为 一 体 的 混合 型 系统 (hybridsystem) 的 方向 发 展 ”, 将 GANs 作 ， 过度 50， 基 于 后 者 进行 生成 的 模型 在 质量 上 往往 好 于 前 者 ， 
这 


为 一 种 训练 框架 ， 与 其 他 机 器 学 习 或 深度 学 习 的 方法 联合 ， 
究 方法 。 强 化 学 习作 为 一 种 序列 决策 方法 ， c) 原生 GANs 具有 的 一 些 先天 不 足 也 会 传递 到 对 应 的 


也 是 乐理 约束 的 体现 之 一 


也 是 一 种 重要 的 丰 


其 训练 过 程 可 以 


背 述 为 通过 动态 调整 自身 状态 采取 行动 以 获 。 ”音乐 制作 模型 中 , 最 显著 的 一 点 即 为 模式 塌陷 (mode collapse), 


JH, wA THE H 


取 奖 励 的 过 程 。 近 年 来 ， 得 益 于 大 数据 的 普及 、 计 算 力 的 提 如 文献 [2, 29]。 同 时 ， 随 着 GANs 技术 本 身 的 提升 ， 也 相继 


升 及 新 算法 演进 
游戏 博弈 , 机 器 翻译 
同时 在 将 强化 学 习 与 生成 对 抗 机 制 结合 ， 使 二 者 特性 互补 的 d) 对 于 数据 集 的 关注 度 越 来 越 大 , 这 也 是 算法 模型 发 展 
上 了 尝试 ， 如 2.4 节 所 述 的 SeqGAN 就 是 ”的 必然 结果 ， 除 了 早期 的 Nottingham 数据 集 外 ， 一 些 更 为 精 
其 中 的 典型 代表 。SeqGAN 解决 了 离散 数据 在 对 抗 训练 过 程 。” 心 设计 的 音乐 样本 标注 数据 集 也 得 了 发 展 和 应 用 ， 如 包含 


， 特 别 是 与 深度 学 习 的 结合 ， 使 强化 学 习 在 。 ”出 现 一 些 针 对 这 些 缺 陷 的 解决 或 缓解 方案 ， 并 应 用 到 相应 的 
E. 文本 序列 预测 等 领域 取得 了 一 定 突破 。 音乐 制作 工作 中 口 ; 


中 不 容易 回 传 梯度 更 新 生成 器 的 问题 ， 并 借助 蒙特 卡 洛 搜索 30 万 个 样本 的 NSynth 数据 集 , 其 构建 目的 是 为 了 达到 celebA 
来 补 全 瞬时 生成 的 序列 数据 ， 在 文字 生成 和 音乐 生成 等 实际 ”数据 集 在 人 脸 领 域 中 的 精细 化 属性 标注 数据 集 的 地 位 。 

应 用 上 也 给 出 相应 的 范例 。 文献 [2] 在 SeqGAN 的 基础 上 , 更 对 于 今后 的 研究 方向 ， 可 能 存在 以 下 几 个 趋势 : 
进一步 扩 振 在 音乐 创作 层面 的 应 用 范畴 ， 对 生成 复 调 音 a) 随 着 生成 对 抗 网 络 技术 的 发 展 , 最 新 的 研究 成 果 将 会 


乐 的 方式 做 
Polyphonic SeqGAN). 
Polyphonic SeqGAN 认为 复 调 音乐 的 生成 ， 特 别 是 基于 ”损失 函 数 ， 模 式 崩 塌 的 缓解 ， 框 架 中 结合 更 前 沿 的 学 习 算 法 


的 探索 (以 下 将 该 工作 的 模型 称 为 。” 越 来 越 快 越 来 越 广 地 适 配 到 音乐 制作 领域 中 ， 已 达到 弥 间 
GANs 的 部 分 先天 缺陷 及 提升 生成 质量 的 目的 ， 如 更 鲁 棒 的 


和 张 约束 的 复 调 音乐 生成 , 能 更 好 地 提升 音乐 整体 生成 质量 。 ”等 ; 


作者 用 一 种 高 效 的 数据 组 织 方式 动态 获取 乐曲 的 旋律 和 和 弦 ， b) 和 乐理 先 验 知 识 的 结合 将 会 越 来 越 紧密 , 特别 是 其 中 


将 音符 ， 音 符 时 长 ， 和 弦 等 数据 信息 封装 到 word. vector 中 关联 性 较 大 的 元 素 ， 如 和 弦 ， 节 奏 ， 强 弱 拍 。 经 过 对 乐理 知 


训练 模型 在 音乐 词 髓 入 空间 (the embedded musical word space) — 识 的 梳理 后 认为 ， 在 影响 音乐 生成 质量 的 众多 乐理 因素 中 ， 


录用 定稿 马 +, $: 


MZE RAMEE S OSYEERU, MZE RE f E 
歌曲 旋律 的 框架 ,目前 尚未 有 模型 对 其 做 单独 的 精细 化 生成 ， 
引入 对 抗 训练 机 制 后 ， 将 有 助 于 提升 和 弦 走 向 的 生成 同时 也 
促进 后 续 音 符 的 生成 质量 提升 。 基 于 此 ， 可 尝试 提出 一 个 新 
的 模型 ， 在 GANs 框架 下 由 粗 (对 抗 生 成 和 弦 走 向 ) 至 细 ( 以 和 
弦 走 向 为 隐形 约束 对 抗 生 成 旋律 ) 分 阶段 地 对 音乐 数据 进行 
生成 ; 

c) 当前 引入 对 抗 机 制 进行 音乐 生成 的 方法 大 多 属于 随 
机 生成 或 “ 弱 控 制 ” 生 成 的 范畴 ， 部 分 模型 加 入 了 和 和弦 等 控 
制 因素 ， 但 整体 上 来 说 在 参数 可 解释 性 上 还 是 较 弱 ， 后 期 可 
借鉴 生成 对 抗 模 型 特别 是 人 脸 生 成 领域 中 的 一 些 精细 化 控制 
生成 方法 中 1， 在 生成 参数 的 可 解释 性 上 做 进一步 研究 。 

d) 算法 模型 的 技术 更 新 对 音乐 标注 数据 集 的 发 展 也 起 
到 了 一 定 需求 推动 作用 ， 音 乐 数 据 集 将 朝 着 精细 化 ， 规 模 化 
的 方向 快速 发 展 ， 并 更 好 地 促进 算法 模型 的 迭代 更 新 ， 形 成 
良性 循环 。 
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